何故MEか〔2〕


 最近では、混合エキスパート(mixture of experts)(ME)と呼ばれているニューロ・ネットワークのモジュラ・アーキテクチャ(modular architecture)が注目されている。MEは、「分割して解決する戦略」(divide-and-conquer-strategy)を使って問題解決を望む混合モデルである。すなわち、複雑な問題を分解し、簡単なサブプログラムで学習するという方法である。特に、MEのゲイト・ネットワーク(gating network)が、インプット・スペースの分割を学習し、各エキスパート・ネットワークをそれぞれの異なる場所に分配することができる。「分割して解決する」アプローチは、piece-wise stationary time seriesにおける異なる場所に対する各エキスパート・ネットワークの分配や、インプット−アウトプット・マッピングにおけるモデリング不連続や、分類問題などに特に有用である。

 ME誤差関数は、MEが一つの条件付密度(conditional densities)を混合要素(mixture components)として、ゲイト・ネットワーク・アウトプットが各要素の混合係数( mixing coefficients)を与える混合モデルである、という解釈に基づいている。実際、ME誤差関数は、MEが一つのエキスパート・ネットワークしか持たないという特別な場合に現われる二乗誤差関数とクロス・エントロピー誤差関数の一般化である。この論文の目的は、この一般化したME誤差関数が大域的最小値(global minimum)の時、最適MEアウトプット(optimal ME outputs)がクラス・メンバシープの事後確率(posteriori probabilities)を推定することである。

 この章では、まず、MEの構造を簡単に説明する。その後、誤差関数の導関数(derivation of error functions)における最大尤度(maximum likelihood)に対する一般的な説明が行われる。条件付密度の混合モデルの場合は、このアプローチがME誤差関数につながっていく。この章の後半は、各エキスパートの条件付密度が、multidimensional Gaussianおよびmultinomialのいずれかである場合、この誤差関数の最小化時の最適MEアウトプットに関する説明を行う。どちらの場合でも、最適MEアウトプット(optimal ME outputs)が事後ベイズ確率(posteriori Bayesian probabilities)を推定することを示している。





next contents